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基于 改进 人 工蜂 群 算法 与 MapReduce 的 大 数据 聚 类 算法 ， 


孙 倩 " 陈 吴 ", 李 超 * 
(湖北 大 学 a. 信 息 化 建设 与 管理 处 ;b. 计 算 机 与 信息 工程 学 院 , 武汉 430062) 


摘 要 : 针对 大 数据 聚 类 算法 计算 效率 与 聚 类 性 能 较 低 的 问题 ， 提 出 了 一 种 基于 改进 人 工蜂 群 算法 与 MapReduce 
的 大 数据 聚 类 算法 。 将 灰 狼 优化 算法 与 人 工蜂 群 算 法 结合 ， 同 时 提高 人 工蜂 群 算法 的 搜索 能 力 与 开发 能 力 。 该 策略 
能 够 有 效 地 提高 聚 类 处 理 的 性 能 。 采 用 混沌 映射 与 反 向 学 习作 为 ABC 种 群 的 初始 化 策略 ， 提 高 搜索 的 解 质量 。 将 
聚 类 算法 基于 Hadoop 的 MapReduce 编程 模型 实现 ， 通 过 最 小 化 类 内 距离 的 平方 之 和 ， 实 现 对 大 数据 的 聚 类 处 理 。 
实验 结果 表明 ， 该 算法 有 效 地 提高 了 大 数据 集 的 聚 类 质量 ， 同 时 加 快 了 聚 类 速度 。 

关键 词 : 数据 分 析 ; 聚 类 算法 ; 人 工蜂 群 算法 ; 灰 狼 优 化 算法 ; 云 计算 ; 分 布 式 计算 
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Clustering algorithm of big data based on improved artificial bee colony algorithm and MapReduce 


Sun Qiana, Chen Hao?®, Li Chaoa 
(a. Informationization Management Department, b. School of Computer Science & Information Engineering, Hubei 
University, Wuhan 430062, China) 


Abstract: Aiming at the problems of low computational efficiency and low clustering performance of clustering algorithms 
for big data, a clustering algorithm of big data based on the improved artificial bee colony algorithm and MapReduce is 
presented. The grey wolf optimizer algorithm and artificial bee colony algorithm are combined, in order to improve the 
exploration and exploitation of the artificial bee colony algorithm simultaneously, this strategy helps to improve the 
clustering performance effectively. The chaotic map and backward learning are utilized as the initial strategy of ABC colony 
to improve the solution quality of search procedure. The clustering algorithm is realized based on MapReduce programming 
model, and the clustering process for big data is realized by minimizing the quadratic sum of inner class distances. 
Experimental results demonstrated that the proposed algorithm improves the clustering quality of big data, and it speedups 
the clustering procedure. 

Key words: data analysis; clustering algorithm; artificial bee colony algorithm; grey wolf algorithm; cloud computing; 
distributed computing 


0 引言 是 高 了 KK- 近 邻 算法 对 大 数据 集 的 处 理 效率 。 
3 前 ， 己 有 少量 研究 人 员 将 元 启发 式 算法 在 MapReduce 

聚 类 处 理 是 数据 分 析 领 域 中 的 一 个 重要 步骤 ， 优 质 的 数 ” 编程 模型 上 实现 外 ， 其 中 也 存在 一 些 针 对 聚 类 问题 进行 有 效 

CS 据 分 析 是 决定 决策 系统 性 能 的 关键 因素 趾 。 许 多 研究 人 员 提 优化 的 方案 。 文 献 [10] 提 出 了 一 种 基于 MapReduce 和 K-means 
出 了 有 效 的 聚 类 算法 ， 但 这 些 聚 类 算法 的 计算 时 间 大 多 随 着 的 大 数据 聚 类 算法 ， 该 算法 有 效 地 在 高 维 空间 对 大 数据 进行 
数据 集 规模 的 增 大 而 增加 ， 所 以 大 数据 集聚 类 处 理 的 时 间 效 。 聚 类 处 理 , 并 且 通 过 MapReduce 框架 实现 算法 的 分 布 式 处 理 ， 
率 是 一 个 关键 的 性 能 指标 叫 。MapReduce 是 一 个 强大 的 编程 降低 了 内 存 成 本 与 计算 成 本 。 文 献 [11] 成 功 地 将 人 工 智 能 算 


模型 支持 并 行 、 分 布 式 地 处 理 大 数据 集 ， 能 够 有 效 地 提高 法 与 分 布 式 计算 框架 结合 ， 在 计算 效率 与 聚 类 效果 两 方面 同 
算法 的 计算 效率 中 。 时 取得 了 明显 的 效果 ; 但 是 受 限 于 遗传 算法 固有 的 不 足 ， 该 
诸多 近期 的 研究 成 果 表 明 ， 基 于 元 启发 式 的 算法 在 求解 方案 对 大 数据 的 聚 类 准确 率 并 未 达到 理想 的 效果 。 
聚 类 问题 方面 存在 巨大 的 潜力 。 受 到 研究 人 员 关 注 的 元 启发 人 工蜂 群 算法 (artificial bee colony，ABC) 是 一 种 全 局 搜 
式 算法 主要 有 遗传 算法 (genetic algorithm, GA)D、 差 分 进化 算 ” 索 能 力 极 强 的 人 工 智 能 算法 ， 许 多 研究 人 员 采 用 ABC 已 经 
法 (differential evolution algorithm, DE)G、 蚁 群 算法 (ant colony 成 功 解决 了 聚 类 问题 03。 虽 然 ABC 的 全 局 搜索 能 力 强 ， 但 
optimization，ACO)JI 、 粒 子 群 优化 算法 (particle swarm ”是 ABC 对 于 大 规模 问题 的 局 部 开发 能 力 较 弱 。 针 对 ABC 局 
optimization，PSO)I 等 ， 这 些 元 启发 式 算法 均 支 持 求 解 无 监 部 开发 能 力 弱 的 缺点 ， 利 用 灰 狼 优化 算法 (grey wolf 


督 聚 类 的 问题 。 元 启发 式 算法 大 多 采用 迭代 寻 优 的 策略 ， 因 optimizer，GWO) 03 增 强 ABC 的 局 部 开发 能 力 ， 简 称 为 
此 求解 全 局 最 优 解 的 时 间 成 本 较 高 。 许 多 研究 者 将 GWOABC(grey wolf optimizer artificial bee colony) 算 法 。 ABC 
MapReduce 编程 模型 与 元 启发 式 算法 结合 ， 利 用 MapReduce 利用 信息 分 享 策略 保持 全 局 的 搜索 能 力 ， 通 过 GWO 的 捕食 
的 并 行 计 算 能 力 降低 元 启发 式 算 法 的 总 体 处 理 时 间 。 文 献 [8] 策略 来 增强 局 部 的 开发 能 力 ， 该 策略 能 够 防止 早熟 收敛 。 此 
成 功 地 将 大 近邻 算法 在 MapReduce 模型 实现 , 该 方案 明显 地 外 ,设计 了 基于 混沌 映射 与 反 向 学 习 算 法 的 种 群 初 始 化 机 制 ， 


bo 
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能 够 有 效 地 解决 随机 初始 化 导致 搜索 性 能 不 稳定 的 问题 。 
基 


法 ， 通 过 分 布 式 计算 提高 算法 对 于 大 数据 的 处 理 速 度 。 
1 ”相关 背景 知识 
1.1 灰 狼 优化 算法 (grey wolf optimizer, GWO) 


基于 Hadoop 框架 的 MapReduce 模型 实现 了 GWOABC 算 


GWO 算法 0 是 一 种 模拟 灰 狼 捕食 行为 的 群 智能 优化 算 


法 ， 考 虑 了 灰 狼 捕食 行为 的 包围 、 追 
法 1 所 示 是 灰 狼 算法 的 伪 代 码 。 

算法 1 GWO 算法 的 伪 代 码 
输入 : 搜索 agent 的 种 群 N， 解 的 维度 n， 
[Ubi,.…,Ubn,Lbi,…,Lbn]， 最 大 迭代 次 数 maxi 。 
输出 : 最 优 agent X。 。 


与 攻击 三 个 阶段 。 算 


解 的 上 下 界 


1. 初 始 化 灰 狼 群 ;=(x,%,.…,) ,其 中 (ie[N]), xje[Ubj, Lbj]|Yv 


Je[n]。 
2. 初 始 化 a, 4，C ，t=1 
3. 计 算 每 个 搜索 agent 的 适应 度 (Xi)， 式 中 祝 e[N] 


A 


4. 素 。 = 全 局 最 优 agent; Xp = 第 二 优 agent; 又 , = 第 三 优 agent; 


5.while (t<maxi) { 


6. foreach agent { 

7. 更 新 当前 agent 的 位 置 /* 根 据 (5) 式 计算 */ 
8. } 

9. 更 新 a，A,C; 


16. ”计算 所 有 agent 的 适应 度 ; 


11. 更 新 XX。， Xp ,Xs 


12., t=t+1; 
13.} 


GWO 模型 主要 包括 了 以 下 几 个 要 素 : 


a) 社会 等 级 。 将 三 个 最 优 解 设 为 vc、P、5 狼 ， 剩 下 的 狼 


群 设 为 @ 狼 。 
b) 包 围 猎 物 。 包围 猎物 策略 的 数学 模型 表示 为 


D=|C:X,) -XO)| (1) 


XU+D)=X,() -AD 


其 中 : 4 与 C 为 两 个 系数 向 量 ， 


为 最 大 迭代 次 数 。 


(2) 
2646 .C062=Es 随 


机 向 量 ri,rze[0,1]，4=a(-t/tww) ， 一 般 将 al 值 设 为 2。tmarx 


c) 追捕 阶段 。 三 个 最 优 解 a、B、5 狼 引 导 GWO 的 捕 猪 


程序 。w 狼 基 于 a、p、6 狼 更 新 位 置 ， 位 置 的 更 新 方法 为 


Da=|C1 .Xalt) X|， Dop=|c: .Xp X|， 
B,C .Xs -| 0) 
Xi1=Xa(t) -ADs), Xs=Xp(t) -Ai(Dg), 四 
¥s =Xs(1)—A (D;) 

KerD = (5) 


等 : 基于 改进 人 工蜂 群 算法 与 MapReduce 的 大 数据 聚 类 算法 


那么 搜索 的 多 样 性 较 高 。 


1.2 
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e) 搜 索 猫 物 。 参 数 4 控制 GWO 的 探索 速度 ,如果 


亏 |>1， 


ABC 算法 
ABC 算法 U5] 主要 由 


蜂 阶 段 、 观 察 蜂 阶 段 、 搜 索 蜂 阶 


段 三 个 阶段 组 成 。 雇 佣 蜂 与 观察 蜂 的 搜索 策略 直接 随机 更 新 


为 [- 


解 向 量 的 


个 元 素 ， 如 式 (6) 所 示 。 


(6) 


态 = 区 十 婴 ( 广 一 艾 ) 


其 中 :vi 为 两 个 不 同 解 的 第 j 维 变量 变异 所 获得 的 新 解 ， i 
1,1] 区 间 的 随机 数 。 
ABC 具有 较 强 的 全 局 搜索 能 力 ， 但 是 ABC 算法 并 未 利 


用 最 优 解 来 引导 搜索 程序 ， 可 能 导致 算法 的 收敛 速度 减 慢 。 


姑 为 最 优 解 信息 能 够 提高 算法 的 收敛 性 能 ， 而 GWO 利用 
优 解 信 息 的 能 力 较 强 , 所 以 将 GWO 引入 ABC 算法 中 , 提 


zo 昌 


ABC 算法 的 性 能 。 


1.3 


MapReduce 编程 框架 
为 了 提高 ABC 对 大 数据 集 的 处 理 效率 ,本 文 设计 了 ABC 


在 MapReduce 模型 的 实现 方案 ， 简 称 为 MR-GWOABC。 
MR-GWOABC 处 理 大 数据 聚 类 任务 的 机 制 中 包含 两 个 主要 


的 操作 ， 即 更 新 类 的 质心 与 适应 度 评估 。 类 的 质心 更 新 基于 


ABC 实现 。 适 应 度 评估 是 计算 每 个 目标 与 质心 之 间 欧 氏 距 离 


> 和， 并 有 
个 复 中 ， 最 小 化 所 有 目标 与 质心 之 间 的 欧 氏 距离 之 和 ， 将 其 
作为 ABC 的 适应 度 函 数 。 基 于 MR-GWOABC 的 数据 聚 类 流 
程 如 图 1 所 示 。 


2 


寻找 全 局 最 优 值 。 聚 类 程序 将 数据 对 象 划 分 到 各 


PE v Rs 
Block( 块 ) | Block( 块 ) | Block( 块 ) | Block( 块 ) | Block( 块 ) 
全 一 4 ; 对 一 全 
| Map Map | Map | Map | Map | 
了 了 了 了 M4 

Shuffle 与 Sort 阶 段 | 
了 J 
Reduce Reduce Reduce 
ee ¥ J 
输出 输出 输出 | 
图 1 基于 MR-GWOABC 的 数据 聚 类 流程 
Fig.1 Data clustering flow based on MR-GWOABC 


混合 的 GWOABC 算法 
文献 [16] 将 传统 GWO 基于 不 同 的 标准 benchmark 函数 进 


行 了 测试 与 验证 ， 根 据 其 分 析 结 果 ，GWO 对 于 多 模 问题 容 
易 陷入 局 部 最 优 解 ， 原 因 在 于 种 群 的 大 部 分 灰 狼 仅仅 作为 一 


个 跟随 者 ， 


发 之 间 的 权重 ， 如 果 | 放 >1， 那 么 候选 解 不 同 于 依赖 值 ; 如 果 


< 


d) 攻 击 狂 物 。 参数 a 控制 GWO 的 攻击 猎物 阶段 程序 ， 


a 


值 随 着 和 迭代 逐渐 地 减 小 。GWO 中 两 个 参数 4 与 C 控制 猎物 


的 搜索 过 程 ， 有 的 取 值 为 -24~2a。 如 果 有 <1， 那 么 灰 狼 攻 
猎物 。 


tt 


可 


期 沈 代 中 搜索 的 能 力 较 强 ， 后 期 迭代 中 开发 的 能 力 较 强 。 


个 最 优 解 引导 ， 导 致 整个 种 群 的 搜索 能 力 较 


GWO 中 参数 4 与 4 的 值 决定 了 种 群 全 局 搜索 与 局 部 开 


1， 那 么 候选 解 收敛 于 依赖 值 。 文 献 [16] 发 现 GWO 在 5 


l: 


GWO 通过 三 个 最 优 agent 引导 搜索 的 过 程 , 导致 算法 缺少 多 


样 人 
机 所 


FE。 本文 将 GWO 引入 ABC 算法 ， 通 过 ABC 的 信息 分 享 
上 来 提高 候选 解 之 间 的 信息 分 享 ， 从 而 提高 GWO 的 全 局 
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搜索 能 力 。 得 随机 变量 ch( 有 ), 将 结果 作为 初始 化 种 群 全 ， 将 对 定义 为 变 
本 文 GWOABC 算法 的 流程 框图 如 图 2 所 示 。 从 图 中 可 量 空间 的 边界 。Logistic 混沌 映射 函数 定义 为 
看 出 ，GWOABC 的 所 有 步骤 与 传统 GWO 相同 ， 在 种 群 初 Ch(k +1)=4*ch(K)*(1—ch(K)) (7) 
始 化 与 信息 分 享 模块 中 增加 了 一 些 附 加 策略 。 首 先 定 义 了 初 其 中 : 大 为 欠 代 次 数 ， 设 为 300;， 初始 值 ch(0) 为 随机 值 。 
始 化 参数 ， 包 括 种 群 规模 N、 解 空间 维度 dim、 最 大 的 迭代 算法 2 基于 反 向 学 习 与 混沌 映射 的 种 群 初始 化 程序 
次 数 ; 然后 计算 其 他 的 参数 ， 包 括 a，4，C。 算 法 主要 分 为 输入 : 搜索 agent 的 种 群 规 模 |N| ， 解 的 维度 为 je[n]， 解 的 上 下 界 
三 个 阶段 ,分 别 为 种 群 初始 化 阶段 .GWO 阶段 与 ABC 阶段 。 分 别 为 xje[Ub1,.…,Ubn,Lbi,.…,Lbn]，kR=3。 
输出 :初始 化 种 群 |N| 。 
始 1. 使 用 n 维 空间 的 混沌 映射 初始 化 种 群 |N| ,使 用 (7) 式 获得 ch(R) 。 
ee pe 2.Xi=(X1,X2,.…Xn) 的 元 ” 定义 为 xj=Lbjtch(kR)*Ubj-Lb}， 其 中 
ie[N], xie[Ub;, Lbj;] Vv je[n]。 
| 使 ee 反 向 学 习 算 法 生成 3. 使 用 0BL 获得 种 群 大 小 为 N 的 集合 
| N 个 agent Nagent 4 生 =( 对 区) ， 其 中 ie[N] ， 每 个 新 反 向 解 定义 为 
v X=Lb; +Ub;—x; , x; elUb;,Lb; |Vieln]] 。 
选择 top-N 的 agent 5. 将 两 组 解 结合 X=(X;UX)) ; 
多 6. 计 算 适应 度 A(X)=(f(Xi)Uf(X;)) ， 并 且 按 照 适应 度 排 序 
计算 适应 度 、 将 三 个 最 优 agent 设 为 zw xp x3。 7 .选择 top-N 解 。 
ET 第 4 行 通过 反 向 学 习 算法 推导 反 向 种 群 倍 的 集合 , 然后 
; 将 两 个 集合 组 合 为 一 个 解 三 (XiU X’)el2NI, 并 且 计 算 其 适应 
采用 (D-(5) 式 更 新 当前 agent 的 位 置 度 有 9)。 
J 2)GWO 阶段 生成 初始 化 种 群 后 ， 传 统 GWO 使 用 式 
更 新 最 优 agent 的 xs xy x (1)~(5) 更 新 其 参数 与 当前 agent 的 位 置 。 
J 3)ABC 阶段 ABC 蜂 群 在 候选 解 之 间 分 享 信 息 ， 根 据 式 
使 用 混沌 映射 7) 式 计算 随机 数 (6) 更 新 旧 解 。 为 了 提高 序列 的 随机 性 、 降 低 重 复 性 ， 采 用 式 
yy (7) 的 Logistic 混沌 映射 生成 式 (6) 的 pj 项 。 
| 使 用 ABC 中 雇佣 蜂 阶段 的 混沌 数 选择 近邻 agent 与 变量 迭代 地 运行 GWO 程序 与 ABC 程序 直至 达到 最 大 迭代 次 
Y 数 ， 将 最 优 解 作为 最 终 的 结果 。 通 过 ABC 的 全 局 搜索 改善 
| Cm 了 GWO 的 全 局 搜索 能 力 ， 使 得 狼 群 的 每 个 成 员 具 备 分 享 信 
a 而 息 的 机 会 ， 同 时 保留 了 算法 的 全 局 搜索 与 局 部 开发 能 力 ， 
RE 效 地 解决 了 多 样 性 问题 ， 并 且 防 止 早熟 收敛 问题 。 
返回 最 优 的 agent xx 3 基于 MR-GWOABC 的 聚 类 算法 
结束 MR-GWOABC 在 处 理 大 规模 数据 的 要 J 
两 个 模块 ， 分 别 为 更 新 质心 处 理 与 适应 度 评估 。 基 于 
图 2 GWOABC 算法 的 流程 a 
Fig.2 Flow diagram of GWOABC algorithm 标 与 质心 之 间 的 平方 欧 氏 距离 之 和 ， 获 得 全 局 最 优 值 。 聚 类 
1) 种 群 初始 化 阶段 ”通过 混沌 映射 与 反 向 学 习 算法 生成 处 理 的 目标 是 寻找 数据 实例 的 最 优 分 配 ， 实 现 平 方 欧 氏 距离 


优质 的 初始 化 候选 解 
察 算法 1 的 第 1 行 与 第 2 行 ， 使 


。 算 法 2 描述 了 种 群 初始 化 的 策略 。 观 
| Logistic 混沌 映射 处 理 获 


之 和 的 最 小 化 ， 


将 该 策略 作为 ABC 的 适应 度 函 数 。 图 3 所 


示 是 基于 MR-GWOABC 的 数据 聚 类 流程 。 


使 用 使 用 
MapReduce 评 MapReduce 评 机 
估 适 应 度 估 适 应 度 人 
每 个 观察 峰 从 
开始 初始 化 分 类 质 [| 更 新 雇 j 蜂 的 | 雇佣 蜂 选 择 质 
必 新 质心 信 机 
结束 


Fig. 3 


基于 MR-GWOABC 的 聚 类 算法 流程 
Flow diagram of MR-GWOABC based clustering algorithm 


ChinaXiv 合 作 期 刊 

录用 定稿 孙 倩 ， 等 : 基于 改进 人 工蜂 群 算法 与 MapReduce 的 大 数据 聚 类 算法 第 37 卷 第 6 期 

根据 图 3 所 示 的 流程 框图 ， 首 先生 成 初始 化 解 ， 将 初始 组 成 107 个 记录 的 大 数据 集 。 
化 解 作为 雇佣 蜂 的 解 。 计 算 平方 欧 氏 距离 之 和 计算 聚 类 的 质 表 1 实验 数据 集 的 属性 
量 ， 评 估 解 的 适应 度 。 雇 佣 蜂 更 新 并 与 观察 蜂 分 享 它们 发 现 Table 1 Attributes of experimental datasets 
的 新 解 ， 然 后 观察 蜂 选 择 适 应 度 较 好 的 解 。 重 复 该 程序 ， 直 编号 数据 集 样本 数量 数据 维度 分 能 数量 
至 达到 最 大 和 迭代 次 数 。 如 果 在 一 定时 间 内 某 个 解 的 适应 度 无 JE rt , 
法 提高 ， 那 么 侦查 蜂 重 新 生成 新 解 。 然 而 大 数据 集 的 适应 度 3 Wine 10000040 3 13 
评估 需要 大 量 的 计算 时 间 , 所 以 采用 MapReduce 编程 模型 分 4 Vowel 10000822 6 3 
布 式 地 计算 适应 度 。 4.1 聚 类 算法 的 性 能 

算法 3、4 所 示 为 MapReduce 模型 的 Map 函数 与 Reduce 采用 F-measure 作为 聚 类 质量 的 评估 指标 , F-measure 由 
函数 。Map 函数 首先 通过 GWOABC 算法 检索 聚 类 的 质心 ， 精度 与 召回 率 两 个 信息 指标 计算 而 来 ， 定 义 为 
数据 记录 于 Hadoop 分 布 式 文件 系统 (hadoop distributed file FO) = (7) 7) 0) 
system, HDFS) 中 ; 然后 Map 函数 提取 每 个 蜂 群 的 质心 , 计算 "(BD +p(5)) 
每 个 数据 与 质心 之 间 的 距离 ,返回 每 个 质心 ID 的 最 小 距离 。 其 中 : j 表示 聚 类 算法 生成 的 类 ; i 表示 原 数 据 集 的 类 标签 
使 用 质心 ID 的 最 小 距离 建 模 Map 函数 的 key， 从 最 小 距离 7 与 p 分 别 表示 召回 率 与 精度 。 
ye 召回 率 定 义 为 "(5 四 -香精 度 定义 为 PG: 用 = 虹 。 其 中 : 
Reduce 函数 ，Reduce 函数 聚集 所 有 相同 的 key， 计 算 总 体 的 
平均 距离 ， 最 终 ，Reduce 函数 Map 函数 调用 emit(key, value) ny 表示 类 i 的 数据 被 分 类 为 类 的 数量 ，ni 与 wj 分 别 为 类 i 


触发 平均 距离 的 keyy， 计 算 蜂 群 中 每 只 蜂 的 适应 度 值 。 与 类 j 的 数据 规模 。 对 于 规模 为 的 数据 集 ， 总 的 F-measure 
算法 3 map 函数 计算 公式 为 
输入 : (key: record_id, value: record) 。 P= SL max(F(i,))) (8) 
/* 初 始 化 */ i 
record_id = key; 其 中 : 五 的 上 界 为 1，F-measure 值 越 大 ， 聚 类 质量 越 高 。 
record = value; 对 于 聚 类 之 类 比较 , 将 本 方案 的 解 与 PKMeans 算法 、 
read( 蜂 群 ); 行 K-PSO 算法 比较 。 三 种 聚 类 算法 的 性 能 结果 如 表 2 所 示 。 
foreach bee in 蜂 群 { MR-GWOABC 筑 法 的 ; 隆 能 明显 地 优 于 PKMeans 与 并 行 
bee_ id = extract_bee_id(bee); K-PSO 算法 。 虽 然 三 种 聚 类 算法 均 采 用 基于 启发 式 的 搜索 方 


法 ， 但 是 K-means 算法 对 于 问题 空间 中 初始 
为 敏感 ，K-means 算法 趋向 于 收敛 于 


化 质心 的 位 置 较 
起 始点 附近 的 局 部 最 优 
将 ABC 算法 与 PSO 算法 比较 ，ABC 搜索 的 解 质量 优 于 


CV = extract_centroids(bee); 


min dist = return min distance(record，CV); 


centroid id = i; 


4 ”实验 


new_key = (bee_id, centroid id); 
new value = (min _ dist); 


} 
算法 4 reduce 函数 


输入 : key: (bee_id, centroid_id), value_list: (min dist, 1), 


初始 化 : count = 0@; 
sum dist = 0; 
avg_dist = 0@; 

Foreach value in value list { 


min dist=extract min dist(value); 


count = count+1; 

sum dist = sum dst + min_dist; 
} 
avg_dist = sum dist/count:; 


emit(key, avg_dist); 
结果 与 分 析 


本 文 对 MR-GWOABC 算法 进行 仿真 实验 ， 评 估 聚 类 的 
质量 与 并 行 算 法 的 有 效 性 。 实 验 中 基于 Perl 脚本 语言 编程 实 
本 算法 ， 实 验 中 Hadoop 平台 为 10 个 节点 ， 每 个 节点 的 配 


章 壮 


置 为 CPU: 2.26 GHz，4 GB 内 存 ，180 GB 磁盘 ， 每 个 节点 


的 操作 系统 为 Ubuntu 14.04，Hadoop 平台 为 Apache Hadoop 


2.0.2 。 


民 


为 了 基于 大 数据 集 评 
用 表 1 所 示 的 合成 数据 身 


碳 MR-GWOABC 算法 的 性 能 ， 采 
将 四 个 公开 数据 集合 成 一 个 大 数 


A 
o 


据 集 ,四 个 数据 集 均 来 自 于 UCI Machine Learning Repository， 
而 且 


有 不 同 的 属性 。 


将 四 个 数据 集 随机 复制 若 


干 个 备份 ， 


PSO 算法 。ABC 方法 的 搜索 过 
发 两 种 策略 ， 而 PSO 


程 中 包含 了 全 局 搜索 与 局 部 开 


方法 的 


搜索 过 程 中 


| 内 


在 ABC 算法 中 ， 雇 佣 蜂 与 观察 蜂 负责 
责 全 局 搜索 ， 如 果 搜 索 程 序 陷 


索 一 个 新 的 解 。 


入 局 部 最 优 ， 


P 则 侧重 于 局 部 
局 部 开发 ， 侦 查 蜂 负 
侦查 蜂 将 随机 搜 


开发 。 


表 2 三 种 聚 类 算法 的 F-measure 结果 
Table 2  F-measure results of three clustering algorithms 
数据 集 编号 MR-GWOABC PKMeans K-PSO 
1 0.842 0.667 0.785 
2 0.387 0.298 0.324 
3 0.718 0.482 0.517 
4 0.643 0.586 0.627 
4.2 聚 类 算法 的 时 间 效 率 
本 算法 的 主要 贡献 是 采用 MapReduce 模型 提高 了 对 大 
数据 集聚 类 处 理 的 速度 ， 因 此 通过 实验 评估 本 算法 的 加 速效 
果 。 将 加 速 指标 定义 为 yy， 计算 公式 为 
了 
Sp = Ty (9) 


个 Hadoop 节点 的 处 理 
4.2.1 可 扩展 性 实验 


行 时 间 与 加 速 指 标 , 如 


MR-GWOABC 的 运行 时 


低 ， 


MR-GWOABC 的 加 速 指标 呈现 线性 提 


果 接 近 理 想 值 。 


其 中 : 了 表示 一 个 Hadoop 节点 的 处 理 


时 间 。 


首先 测试 了 MR-GWOABC 算法 的 可 扩展 性 


改变 Hadoop 节点 的 数量 ， 统 计 本 算法 对 


提 


时 间 ; Tw 表示 使 用 入 


i 运 
图 4 与 5 所 示 。 从 图 4(a)~(d) 可 看 出 ， 


间 随 着 Hadoop 节点 数量 的 增加 1 
并 且 运 行 时 间接 近 于 理想 值 。 从 


j 降 
图 5(a)~(d) 可 看 出 


高 的 趋势 ， 


且 其 结 
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图 4 MR-GWOABC 的 运行 时 间 与 Hadoop 节点 数量 的 关系 


Fig.4 Relationship between runtime of MR-GWOABC and node number of Hadoop 
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图 5 MR-GWOABC 的 加 速 指 标 与 Hadoop 节点 数量 的 关系 
Fig.$ Relationship between speedup of MR-GWOABC and node number of Hadoop 
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4.2.2 数据 规模 对 可 扩展 性 的 影响 
其 次 测试 了 数据 集 规模 对 于 MR-GWOABC 算法 可 扩展 


性 的 影响 ， 效 率 的 计算 方法 如 式 (10) 所 示 。 
效率 = 部 (10) 
表 3 所 示 是 MR-GWOABC 在 10 个 节点 获得 的 效率 结 
也 是 MR-GWOABC 算法 的 性 能 随 着 数 


情况 。 从 结果 可 看 出 ， 不 同 规模 数据 集 的 效率 均 高 于 0.90， 


并 且 可 得 出 结论 MR-GWOABC 算法 的 可 扩展 性 随 着 问题 规 

模 的 增 大 而 提高 。 
表 3 不 同 规模 数据 集 的 效率 值 与 F-measure 值 
Table 3  F-measure results of efficiency values of different Scale of 
datasets 

数据 集 编号 性 能 指标 2GB 4GB 6GB 8GB 10GB 

| F-Measure 值 0.842 0.842 0.842 0.842 0.842 

效率 值 0.905 0.914 0.918 0.922 0.925 

5 F-Measure 值 0.387 0.387 0.387 0.387 0.387 

效率 值 0.924 0.927 0.93 0.935 0.941 

3 F-Measure 值 0.718 0.718 0.718 0.718 0.718 

效率 值 0.932 0.934 0.934 0.942 0.948 

F-Measure 值 0.643 0.643 0.643 0.643 0.643 

效率 值 0.911 0.918 0.924 0.927 0.928 


本 文 的 MR-GWOABC 算法 基于 MapReduce 实现 ， 
MapReduce 的 Map 任务 将 数据 集 转换 为 “ 键 一 值 ” 对 的 数据 
集 ，Reduce 任务 将 这 些 数据 组 合成 集合 。MapReduce 分 布 式 
计算 将 任务 分 成 若干 个 单独 的 进程 ， 在 大 型 硬件 集群 上 并 行 
地 执行 。MapReduce 将 大 数据 集 的 各 个 元 素 分 解 为 元 组 ， 然 
后 进一步 将 元 组 缩小 为 较 小 的 集合 ， 通 过 将 大 数据 数据 并 行 
地 处 理 ， 由 此 显著 地 加 快 数据 处 理 速度 。 通 过 实验 结果 可 证 


> 


明 ，MR-GWOABC 算法 能 够 在 合理 的 时 间 内 完成 大 数据 的 


聚 类 处 理 ， 并 且 保 持 较 高 的 解 质量 。 
5 ”结束 语 


为 了 提高 聚 类 算法 的 处 理 效率 与 聚 类 性 能 ， 本 文 设计 了 
基于 改进 人 工蜂 群 算法 与 MapReduce 的 大 数据 聚 类 算法 。 将 
GWO 算法 与 ABC 算法 结合 ， 同 时 提高 ABC 算法 的 搜索 能 
力 与 开发 能 力 。 该 策略 能 够 有 效 地 提高 聚 类 处 理 的 性 能 。 采 
用 混沌 映射 与 反 向 学 习作 为 ABC 种 群 的 初始 化 策略 ， 提 高 
搜索 的 解 质 量 。 聚 类 算法 基于 Hadoop 的 MapReduce 编程 模 
型 实现 ， 通 过 最 小 化 类 内 距离 的 平方 之 和 ， 实 现 对 大 数据 的 
聚 类 处 理 。 实 验 结果 表明 ，MR-GWOABC 算法 能 够 高 效 地 
处 理 大 规模 数据 集 ， 并 且 实现 了 较 好 的 聚 类 质量 。 
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